用于相机轨迹估计,同时定位和映射(SLAM)[9]已被广泛用于机器人技术中。但是,在我们的背景下,传统的大满贯面临两个关键挑战。首先,SLAM假设一个静态环境,而我们的视频包含移动人体,这减少了估计值的认可。其次,单眼猛击只能恢复摄像头轨迹,最多可恢复到库尺度。为代表公制世界框架中的相机运动,我们需要估算一个缩放因素。最近的研究建议从观察到的人类运动中推断摄像机运动的规模[22,95]。特别是在猛击之后,这些方法共同优化了人类的姿势和摄像头尺度,因此人的位移与学习的运动模型相匹配。但是,由于运动模型是从Studio MoCap数据中学到的,因此预测的位移不会推广到现实世界中的复杂性。因此,他们难以恢复复杂而远程的轨迹。
主要关键词
![arxiv:2403.17346v2 [CS.CV] 2 Sep 2024PDF文件第1页](/bimg/8/8b6e5f6d7bcf25d556b02ccd89f14397c6ec3d71.webp)
![arxiv:2403.17346v2 [CS.CV] 2 Sep 2024PDF文件第2页](/bimg/0/05e0c9cd153818850054f7b0a0590689335174d6.webp)
![arxiv:2403.17346v2 [CS.CV] 2 Sep 2024PDF文件第3页](/bimg/b/baf3b942f4f3fa60a25e5837935604da2ba9cc7a.webp)
![arxiv:2403.17346v2 [CS.CV] 2 Sep 2024PDF文件第4页](/bimg/4/40f2717eed35ba3a3cab03fb386d5c8fb982d348.webp)
![arxiv:2403.17346v2 [CS.CV] 2 Sep 2024PDF文件第5页](/bimg/2/2ed7f0dd7463a65a962dbc59e249e7ad79d78bd9.webp)
